其他
「AI教父」万字采访实录:ChatGPT和AI的过去、当下与未来
The following article is from Web3天空之城 Author 城主
A:Geoffrey HintonQ:您如何描述当前 AI 机器学习领域的时刻?A:我认为这是一个关键时刻。ChatGPT 表明,这些大型语言模型可以做一些令人惊奇的事情。普通公众突然开始关注这个领域,因为微软发布了一些产品,他们突然意识到了大公司在过去五年里所知道的东西。Q:你第一次使用 ChatGPT 时的想法是什么?A:在 ChatGPT 前,我已经使用了许多类似的东西,所以 ChatGPT 并没有让我感到惊讶。GPT-2(这是早期的一种语言模型)曾让我惊讶,Google 的一个模型也让我惊讶,它实际上可以解释为什么一个笑话很好笑。它用自然语言告诉你为什么一个笑话很好笑。当然,并非所有笑话都可以,但对于很多笑话,它都可以告诉你为什么它们好笑。Q:如果 ChatGPT 并不那么令人惊讶或令人印象深刻,那么您对公众对它的反应感到惊讶吗?因为反应很大。A:是的,我认为每个人都有点惊讶于反应如此之大。这是最快增长的应用程序。也许我们不应该感到惊讶,但研究人员已经习惯于这些东西实际上是有效的。Q:你在 AI 领域一直处于领先地位,半个世纪都领先于其他人,对吗?A:其实不然。在 AI 领域,有两种思路。一种是主流 AI,另一种是关于神经网络的。主流 AI 认为,AI 是关于推理和逻辑的,而神经网络则认为,我们最好研究生物学,因为那些才是真正有效的东西。所以,主流 AI 基于推理和逻辑制定理论,而我们基于神经元之间的连接变化来学习制定理论。从长远来看,我们取得了成功,但短期内看起来有点无望。Q:回顾过去,了解你现在所知道的,你认为当时你是否可以说服人们?A:我当时可以说,但那并不能说服人们。我可以说,神经网络在 20 世纪 80 年代没有真正奏效的唯一原因是计算机运行速度不够快,数据集不够大。然而,在 80 年代,一个重要的问题是,一个拥有大量神经元的大型神经网络,计算节点和它们之间的连接,仅通过改变连接的强度,从数据中学习,而没有先验知识,这是否可行?主流 AI 的人认为这完全荒谬。尽管这听起来有点荒谬,但它确实有效。Q:您是如何知道或为什么相信这种方法会奏效的?A:因为大脑就是这样。你必须解释我们是如何做到这些事情的,以及我们是如何做到那些我们没有进化出来的事情的,比如阅读。阅读对我们来说是非常新近的,我们没有足够的进化时间来适应它。但我们可以学会阅读,我们可以学会数学。所以一定有一种在这些神经网络中学习的方法。Q:昨天,曾与您共事的 Nick 告诉我们,您并不是真正对创建 AI 感兴趣,您的核心兴趣是理解大脑是如何工作的。A:是的,我真的想了解大脑是如何工作的。显然,如果你关于大脑工作原理的错误理论带来了好的技术,你可以利用这一点来获得资助。但我真的想知道大脑是如何工作的。我认为目前人工神经网络与大脑实际工作原理之间存在一定的分歧。我认为它们现在走的是不同的道路。Q:那么我们现在还没有采取正确的方法?A:这是我的个人观点。Q:但所有大型模型现在都使用一种叫做反向传播的技术,而这种技术是您帮助推广的。A:我认为大脑并不是在做这个。有两条通往智能的不同道路。一条是生物学途径,另一条是我们所拥有的模拟硬件途径。我们必须用自然语言进行沟通,还要向人们展示如何做事情,模仿等。但我们在交流方面做得很糟糕,与现在运行在数字计算机上的计算机模型相比,我们的交流能力差得多。计算机模型之间的沟通带宽非常大,因为它们是相同模型的克隆,运行在不同的计算机上。正因为如此,它们可以查看大量的数据,因为不同的计算机可以查看不同的数据,然后它们结合了它们所学到的东西,远远超出了任何人能够理解的范围。尽管如此,我们仍然比它们聪明。Q:所以它们就像是天才白痴吗?A:对,ChatGPT 知道的比任何一个人都多。如果有一个关于知识量的比赛,它会轻松击败任何一个人。它在智力竞赛中表现出色,可以写诗,但在推理方面并不擅长。我们在推理方面做得更好。我们必须从更少的数据中提取我们的知识。我们有 100 万亿个连接,其中大部分是通过学习得到的,但我们只活了十亿秒,这并不算很长的时间。像 ChatGPT 这样的东西,它们在许多不同的计算机上运行了比我们更长的时间,吸收了所有这些数据。Q:1986 年,您在《自然》杂志上发表了一篇文章,提出了一个想法:我们将拥有一个由单词组成的句子,并预测最后一个单词。A:是的,那是第一个语言模型,基本上就是我们现在在做的事情。1986 年是很久以前的事情了。Q:为什么那时候人们还没有说「哦,好吧,我认为他找到了方法」?A:因为那时候,如果你问我用多少数据训练了那个模型,我有一个简单的家庭关系模型,有 112 个可能的句子,我用其中的 104 个进行了训练,然后检查它是否正确预测了最后 8 个。它在预测最后 8 个方面表现得相当好,比符号 AI 更好。问题是那时候的计算机还不够强大。现在的计算机速度快了数百万倍,可以进行数百万倍的计算。我做了一个小计算,如果我拿 1986 年的计算机去学习一些东西,它现在仍在运行,但还没有完成。现在,学习这些东西只需要几秒钟。Q:你知道这是你的制约因素吗?A:我并不知道,但我相信那可能是我们的制约因素。但人们对这样的说法嗤之以鼻,好像这是一个借口:「如果我有更大的计算机和更多的数据,一切都会好起来。现在它不起作用是因为我们没有足够的数据和计算能力。」这种观点被当作对事物无法正常运作的一种狡辩。Q:在 90 年代从事这项工作很困难吗?A:在 90 年代,计算机在不断发展,但是那时确实有其他学习技术,在小型数据集上表现得和神经网络一样好,而且更容易解释,背后有更为复杂的数学理论。所以,在计算机科学领域,人们对神经网络失去了兴趣。但在心理学领域,他们仍然对神经网络感兴趣,因为心理学家对人类可能如何学习感兴趣,这些其他技术甚至比反向传播还不合理。Q:这是您背景的一个有趣部分,您之所以投身于这个领域,并非因为对计算机感兴趣,而是因为对大脑感兴趣。A:是的,我原本对心理学感兴趣,后来我决定,如果不了解大脑,我们永远无法理解人类。在 70 年代,有一种时髦的观点认为,你可以在不关心大脑的情况下做到这一点,但我觉得那是不可能的。你必须了解大脑是如何运作的。Q:现在我们快进到 2000 年代,您回顾过去,是否认为有一个关键时刻,当时您觉得我们这一方将在这场争论中获胜?A:大约在 2006 年,我们开始做所谓的深度学习。在那之前,让具有多层表示的神经网络学会复杂事物一直很困难。我们找到了更好的方法来实现这一点,更好的初始化网络的方法,称为预训练。在 ChatGPT 中,P 代表预训练。T 代表变换器,G 代表生成。实际上,是生成模型为神经网络提供了更好的预训练方法。2006 年时,这个理念的种子已经埋下,到了 2009 年,我们已经研发出了比最好的语音识别器更好的东西,用与其他所有语音识别器不同的技术识别您说的哪个音素。
有些产品,需要展开说说
苹果 Siri 团队内幕曝光:挣扎、斗争、重组